L'inferenza statistica chiede: "Dati questi dati, quali sono i parametri più probabili?" Questa diapositiva collega questa domanda con Ottimizzazione Convessa. Trasformiamo il concetto probabilistico di verosimiglianza in un programma strutturato, mostrando che sotto condizioni di log-concavità, trovare la migliore stima è equivalente a risolvere un problema di ottimizzazione convessa.
Il Quadro della Verosimiglianza
La funzione di verosimiglianza è la distribuzione di probabilità $p_x(y)$ considerata come funzione del parametro $x$ per un campione osservato fisso $y$. Per stimare $x$, utilizziamo stima della massima verosimiglianza (ML): scegliendo il valore che rende i dati osservati più probabili.
$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$
Per efficienza computazionale, utilizziamo la funzione di log-verosimiglianza, $l(x) = \log p_x(y)$. Poiché il logaritmo è una funzione strettamente crescente, preserva la posizione del massimo trasformando i prodotti (da osservazioni indipendenti) in somme facilmente gestibili.
Il Programma di Ottimizzazione della MLE (7.1)
Formalizziamo la stima come un programma matematico:
Questo programma è un problema di ottimizzazione convesso se:
- La funzione di log-verosimiglianza $l$ è concava per ogni valore di $y$.
- L'insieme ammissibile $C$ (informazione a priori) è descritto da vincoli di uguaglianza lineari e vincoli di disuguaglianza convessi.
Integrazione di Vincoli e Informazioni A Priori
La stima della massima verosimiglianza richiede di ridefinire $p_x(y)$ come zero per $x \notin C$ per imporre esplicitamente vincoli fisici o a priori. Nello spazio dell'ottimizzazione, ciò significa che la funzione di log-verosimiglianza viene assegnata il valore $-\infty$ per i parametri $x$ che violano questi vincoli, creando così un ostacolo insormontabile per l'ottimizzatore.